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Beschreibung 

Verfahren zur rechnergestutzten Spracherkennung, 
Spracherkennungs system und Steuereinrichtung zum Steuern 
eines technlschen Systems und Telekommunikationsgerat 

Die Erfindung betrifft ein Verfahren zur rechnergestutzten 
Spracherkennung, ein Spracherkennungs system sowie eine 
Steuereinrichtung zum Steuern eines technischen Systems mit 
einem Spracherkennungs system und ein Telekommunikationsgerat. 

Im Rahmen der rechnergestutzten Spracherkennung wird ein von 
einem Benutzer eingesprochenes Sprachsignal im Rahmen der 
Vorverarbeitung digitalisiert und auf so genannte 
Merkmalsvektoren, die auch als Featurevektoren bezeichnet 
werden, abgebildet und fur die durchzufuhrende 
Spracherkennung gespeichert . 

Die Merkmalsvektoren weisen je nach Anwendung eine fest 
vorgegebene Anzahl von Merkmalsvektor-Komponenten auf, die 
iiblicherweise in dem Merkmalsvektor geordnet sind nach ihrer 
Bedeutung im Rahmen der Spracherkennung, iiblicherweise 
geordnet nach Merkmalsvektor-Komponenten mit geringer 
werdendem Inf ormationsgehalt (kleiner werdender statistischer 
Varianz) . 

Insbesondere in einer Spracherkennungsanwendung in einem 
Embedded System ist jedoch die zur Verfugung stehende 
Rechenlei stung und der zur Verfugung stehende Speicherplatz 
knapp, weshalb es in den derzeit bekannten 

Spracherkennungsanwendungen insbesondere aufgrund einer sehr 
hohen Anzahl von Merkmalsvektor-Komponenten, haufig zu 
Problemen kommt . 

Der Erfindung liegt das Problem zu Grunde, eine Moglichkeit 
zur rechnergestutzten Spracherkennung sowie ein 
Spracherkennungssystem anzugeben, bei der eine verringerte 
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zur Verfugung stehenden Rechenleistung oder ein reduzierter 
zur Verfugung stehenden Speicherplatz ausreicht. 

Das Problem wird durch das Verfahren zur rechnergestutzten 
Spracherkennung , durch das Spracherkennungs system, durch die 
Steuereinrichtung sowie durch das Telekommunikationsgerat mit 
den Merkmalen gemaS den unabhangigen Patentanspruchen gelost. 

Bei einem Verfahren zur rechnergestutzten Spracherkennung 
unter Verwendung von Merkmalsvektoren ist eine, vorzugsweise 
zu Beginn des Verfahrens, ermittelte Erkennungsraten- 
Information gespeichert, mit der fur die Merkmalsvektoren 
abhangig von dem Inf ormationsgehalt der Merkmalsvektor- 
Komponenten angegeben wird, welche Spracherkennungsrate 
jeweils mit den Merkmalsvektoren mit den jeweils 
berucksichtigten Merkmalsvektor-Komponenten erzielbar ist. 

In einem ersten Schritt wird fur eine 

Spracherkennungsanwendung ermittelt oder bestimmt, welche 
Spracherkennungsrate fur die jeweilige 
Spracherkennungsanwendung benotigt wird. 

Unter Verwendung der gespeicherten Spracherkennungsraten- 
Information wird von dem Rechner ermittelt, welcher 
Inf ormationsgehalt der Merkmalsvektor-Komponenten mindestens 
erf order lich ist, urn die bestimmte Spracherkennungsrate zu 
gewahrleisten . 

Ferner wird ermittelt, wie viele Merkmalsvektor-Komponenten 
in dem Spracherkennungssystem fur die jeweilige 
Spracherkennungsanwendung erforderlich sind, um den 
ermittelten Inf ormationsgehalt bereitzustellen . 

Vorzugsweise wird ferner fur die jeweilige 
Spracherkennungsanwendung ein Codebuch erstellt unter 
Berucksichtigung der zuvor ermittelten Anzahl von 
Merkmalsvektor-Komponenten in dem Spracherkennungssystem. 
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AnschlieSend wird - vorzugsweise unter Verwendung des 
best immt en , Sp r a ch e r k ennung s anwendung s - sp e z i f i s chen 
Codebuchs - die Spracherkennung ausgefiihrt wird unter 
Verwendung von Merkmalsvektoren mit der Anzahl von 
Merkmalsvektor-Komponenten, die erforderlich sind, um den 
ermittelten Inf ormationsgehalt bereitzustellen . 

Die Spracherkennung, das heifit das Verfahren zum Vergleichen 
der Merkmalsvektoren, insbesondere somit der Vergleich der 
Merkmalsvektoren eines eingesprochenen Sprachsignals mit den 
Merkmalsvektoren von Referenzwortern, die in einem 
elektronischen Worterbuch gespeichert sind, wird ausgefiihrt 
unter Verwendung von Merkmalsvektoren mit der Anzahl von 
Merkmalsvektor-Komponenten, die erforderlich ist, um die 
zuvor bestimmte Spracherkennungsrate zu gewahrleisten . 

Ein Spracherkennungs system weist eine Spracherkennungseinheit 
auf sowie ein mit der Spracherkennungseinheit gekoppeltes 
elektronisches Worterbuch, in dem die im Rahmen der 
Spracherkennung berucksichtigten Worter gespeichert sind. 
Ferner ist in dem Spracherkennungssystem ein Erkennungsraten- 
Inf ormations-Speicher vorgesehen, in dem Erkennungsraten- 
Information gespeichert ist, mit der fur die Merkmalsvektoren 
abhangig von dem Inf ormationsgehalt der Merkmalsvektor- 
Komponenten angegeben wird, welche Spracherkennungsrate 
jeweils mit den Merkmalsvektoren mit den jeweils 
berucksichtigten Merkmalsvektor-Komponenten erzielbar ist. 
Mittels einer ebenfalls vorgesehenen Erkennungsraten- 
Inf ormations-Ermittlungseinheit zum Ermitteln der 
Erkennungsraten- Information wird vor Durchfuhrung der 
eigentlichen Spracherkennung anhand vorzugsweise eines 
Trainingsdatensatzes die Erkennungsraten- Information 
ermittelt. Ferner ist eine Inf ormationsgehalt- 
Ermittlungseinheit vorgesehen zum Ermitteln des 
Inf ormationsgehalts fur Merkmalsvektor-Komponenten eines 
Merkmalsvektors in dem Spracherkennungssystem. Ferner ist 
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eine Merkmalsvektor-Komponenten-Auswahleinheit zum Auswahlen 
von Merkmalsvektor-Komponenten, die im Rahmen der 
Spracherkennung zu berlicksichtigen sind, in dem 
Spracherkennungs system vorgesehen . 

Eine Steuereinrichtung zum Steuern eines technischen Systems 
weist das oben beschriebene Spracherkennungs system auf , wobei 
in dem elektronischen Worterbuch die zum Steuern des 
technischen Systems vorgesehenen Steuerbef ehle zur, 
vorzugsweise sprecherunabhangigen, Spracherkennung 
gespeichert sind. 

Anschaulich ist somit erf indungsgemaS erstmals ermoglicht, 
die tatsachlichen anwendungsspezif ischen Anf orderungen an die 
Erkennungsrate im Rahmen der Auswahl von Merkmalsvektor- 
Komponenten von Merkmalsvektoren zur Spracherkennung flexibel 
zu berucksichtigen, ohne dass fur jede 

Spracherkennungsanwendung erneut eine Spracherkennungsrate 
ermittelt werden muss, 

Auf diese Weise wird ein optimierter Kompromiss insbesondere 
hinsichtlich des zur Verfugung stehenden Speicherplatzbedarf s 
durch anwendungsabhangige Reduktion der Dimension der 
Merkmalsvektoren, anders ausgedriickt der Anzahl 
beriicksichtigter Merkmalsvektor-Komponenten erreicht. Die 
Reduktion der Anzahl beriicksichtigter Merkmalsvektor- 
Komponenten im Rahmen der Spracherkennung fuhrt zu einer 
erheblichen Reduktion der im Rahmen der Spracherkennung 
selbst benotigten Rechnerlei stung . 

Aus diesem Grund eignet sich die Erfindung insbesondere fur 
den Einsatz in einem Embedded System. 

Ferner wird eine erhebliche Einsparung an benotigter 
Rechenzeit erreicht, da fur eine neue 

Spracherkennungsanwendung lediglich die Anzahl erf orderlicher 
Merkmalsvektor-Komponenten aus der zuvor lediglich einmal 
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ermittelten Erkennungsraten-Inf ormation bestimmt werden 
braucht und das Codebuch unmittelbar unter Verwendung der 
Merkmalsvektoren mit der bestimmten erf orderlichen Anzahl von 
Merkmalsvektor-Komponenten ermittelt werden kann. 

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen Anspruchen . 

Die im Folgenden beschriebenen Ausgestaltungen der Erfindung 
betreffen sowohl das Verfahren, das Spracherkennungs system 
als auch die Steuereinrichtung . 

Fur die Spracherkennung selbst wird vorzugsweise ein 
Spracherkennungsverf ahren zur sprecherunabhangigen 
Spracherkennung, besonders bevorzugt unter Verwendung von 
Hidden Markov Modellen durchgef uhrt . 

Alternativ konnen zur Spracherkennung, insbesondere zur 
sprecherunabhangigen Spracherkennung statistische 
Klassif ikatoren, beispielsweise unter Verwendung kiinstlicher 
neuronaler Netze, eingesetzt werden. 

Allgemein kann jedoch erf indungsgemaS jedes beliebige 
Verfahren zur Spracherkennung eingesetzt werden. 

GemaS einer anderen Ausgestaltung der Erfindung ist es 
vorgesehen, dass die Merkmalsvektor-Komponenten mit relativ 
hohem Inf ormationsgehalt unter den Merkmalsvektor-Komponenten 
des jeweiligen Merkmalsvektors ausgewahlt werden und im 
Rahmen der Spracherkennung verwendet werden. 

Durch diese Ausgestaltung der Erfindung wird gewahrleistet , 
dass tatsachlich diejenigen Merkmalsvektor-Komponenten nicht 
berucksichtigt werden, die den geringsten Inf ormationsgehalt 
innerhalb aller Merkmalsvektor-Komponenten aufweisen, womit 
gewahrleistet wird, dass die verloren gegangene Information 
im Rahmen der Spracherkennung, die entsteht aufgrund der 
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Nicht-Berucksichtigung einer Merkmalsvektor-Komponenten, 
minimiert ist. 

Als Steuereinrichtung zum Steuern eines technischen Systems 
eignen sich beispielsweise eine Steuereinrichtung zum Steuern 
eines Telekommunikationsgerats , beispielsweise eines 
Telef ongerats , eines Telef axgerats , eines PDAs, eines 
Notebooks, etc., oder zum Steuern eines Endgerats, in dem 
mindestens zwei der oben beschriebenen Gerate- 
Funktionalitaten in einem gemeinsamen Gerat integriert sind. 
Insbesondere diese mit einem klar definierten und begrenzten 
Wortschatz zu steuernden Gerate konnen mittels eines 
Sprachdialogs gesteuert werden, der relativ ubersichtlich und 
somit selbst mittels eines Embedded Systems kostengunstig 
realisierbar ist. 

Die anwendungsangepasste erhebliche Reduktion der Dimension 
verarbeiteter Merkmalsvektoren fuhrt zu einer erheblichen 
Zeiteinsparung im Rahmen der Entwicklung eines 
Spracherkennungs sys terns , insbesondere wird das verwendete 
Codebuch erheblich reduziert, womit der Speicherplatzbedarf 
ebenfalls in erheblichem MaSe reduziert wird. 

Ein Ausf iihrungsbeispiel der Erfindung ist in den Figuren 
dargestellt und wird im Folgenden naher erlautert. 

Es zeigen 

Figur 1 ein Blockdiagramm eines Spracherkennungssystems gemafi 
einem Ausf iihrungsbeispiel der Erfindung; 

Figur 2 eine Skizze des Speichers des Rechners aus Figur 1 im 
Detail ; 

Figur 3 ein Blockdiagramm, in dem die einzelnen 
Verf ahrensschritte zum Bestimmen einer 
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Erkennungsraten- Information gemaE einem 
Ausfiihrungsbei spiel der Erfindung dargestellt sind; 

Figur 4 ein Ablauf diagramm, in dem die einzelnen 
Verf ahrensschritte zum Bestimmen einer 
Erkennungsraten- Information gemaS einem 
Ausfiihrungsbei spiel der Erfindung dargestellt sind; 

Figur 5 eine Skizze einer Erkennungsraten- Information gemaS 
einem Ausf uhrungsbeispiel der Erfindung; 

Figur 6 ein Ablauf diagramm, in dem die einzelnen 

Verfahrensschritte des Verfahrens zur Spracherkennung 
gemaS einem Ausfiihrungsbei spiel der Erfindung 
dargestellt sind. 

Fig.l zeigt ein Spracherkennungssystem 100 gemafi einem 
Ausfiihrungsbei spiel der Erfindung. 

Das Spracherkennungssystem 100 arbeitet je nach Betriebsmodus 
in einem ersten Betriebsmodus als 
Spracherkennungseinrichtung, wobei in dem 
Spracherkennung smodus eine eingesprochene AuSerung 101, 
eingesprochen von einem Benutzer (nicht dargestellt) des 
Spracherkennungs systems 100, von der 

Spracherkennungseinrichtung erkannt wird. Die Spracherkennung 
erfolgt unter Verwendung eines Verfahrens zur 
sprecherunabhangigen Spracherkennung . 

In einem zweiten Betriebsmodus, im Weiteren auch bezeichnet 
als Trainingsmodus , wird unter Verwendung einer 
eingesprochenen AuEerung 101, wie im Weiteren naher erlautert 
wird, das Spracherkennungssystem 100 trainiert, gemafi diesem 
Ausfiihrungsbei spiel bedeutet dies, dass einzelne Hidden 
Markov Modelle fur eine Au&erung mittels der eingesprochenen 
AuSerung 101 trainiert werden. 
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in beiden Bettiebsmodi wird das von dem Benutzer 
eLgesprocbene Spracbsignal 101 eine. Mikrozon 10 2 
und als aufgenon^enes elektrisches Analogs.gnal 103 n,r 
Vorverstarkung mittels einer Vorverstarkungse.nhext 104 

nnterzogen und als versus A"^^^ 5 "r^^" 
/D igitalwandler 106 zugefuhrt, dort in ezn dzgxtales Signal 
107 umgewandelt und als digitales Signal 107 einer 
Merkmalsextraktionseinheit 108 zugefuhrt, weiche das d^ztale 
Signal 107 einer spektraltransf ormation unterzieht und zu dem 
digitalen Signal 107 zu einer AuEerung eine Folge von 
Merkmalsvektoren 109 bildet, weiche das digxtale S.gnai 107 
reprasentieren . 

Je der Merkmalsvektor 109 weist eine vorgegebene Anzahl von 
Merkmalsvektor-Komponenten auf . 

GemaS diesem Ausfuhrungsbeispiel weisen die Merkmalsvektoren 
jeweils 78 Merkmalsvektor-Komponenten auf. 

, Die Merkmalsvektoren 109 warden einem Rechner 110 zugefuhrt. 

Es ist in diesem Zusammenhang anzumerken, dass das Mikrofon 
102 die vorverstarkungseinheit 104, insbesondere dxe 
VerstLungseinneit. und der Analog- /Digitalwandler 10 sow.e 
5 die Merkmalsextraktionseinheit 108 als separate Exnhexten 
Oder auch als in dem Rechner 110 integrierte Einhe.ten 
realisiert sein konnen. 



30 



GemaS diesem Ausfuhrungsbeispiel der Erfindung xst es 
vorgesehen, dass die Merkmalsvektoren 109 dem Rechner 110 
uber dessen Eingangsschnittstelle 111 zugefuhrt werden. 



einen 



35 



Der Rechner 110 weist ferner einen Mikroprozessor 112, 
Splicer 113 sowie eine Ausgangsschnittstelle 114 auf weiche 
alle miteinander mittels eines Computerbus 115 gekoppelt 



sind. 
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Mittels des Mikroprozessors 112 werden die im Folgenden 
beschriebenen Verf ahrensschri tte, insbesondere die Verfahren 
zum Ermitteln der im Folgenden erlauterten Erkennungsraten- 
Information sowie die Verfahren zur Spracherkennung 
durchgef uhrt . 

In einem im Folgenden naher erlauterten elektronischen 
Worterbuch, welcher im Speicher 113 gespeichert ist, sind die 
Eintrage in Form trainierter Hidden Markov Modelle enthalten, 
die im Rahmen der Spracherkennung als Referenzworter, die 
uberhaupt nur von dem Spracherkennungsalgorithmus iiberhaupt 
erkannt werden konnen, enthalten sind. 

Alternativ kann zusatzlich ein digitaler Signalprozessor 
vorgesehen sein, der die jeweils eingesetzten 
Spracherkennungsalgorithmen implementiert hat und einen 
darauf spezialisierten Mikrocontroller aufweisen kann. 

Ferner ist der Rechner 110 mittels der Eingangsschnittstelle 
113 mit einer Tastatur 116 sowie einer Computermaus 117 uber 
elektrische Leitungen 118, 119 oder eine Funkverbindung, 
beispielsweise eine Inf rarot-Verbindung oder eine Bluetooth- 
Verbindung gekoppelt. 

Uber zusatzliche Kabel oder Funkverbindungen, beispielsweise 
mittels einer Inf rarot-Verbindung oder einer Bluetooth- 
Verbindung 120, 121 ist der Rechner 110 mittels der 
Ausgangsschnittstelle 114 mit einem Lautsprecher 122 sowie 
einem Aktor 123 gekoppelt. 

Der Aktor 123 reprasentiert in Fig.l allgemein jeden 
moglichen Aktor im Rahmen der Steuerung eines technischen 
Systems, beispielsweise realisiert in Form eines 
Hardwareschalters oder in Form eines Computerprogramms fur 
den Fall, dass beispielsweise ein Telekommunikationsgerat 
oder ein anderes technisches System, beispielsweise ein 
Autoradio, eine Stereoanlage, ein Videorekorder , ein 
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Fernseher, der Rechner 110 selbst oder irgendeine andere 
technische Anlage gesteuert werden soil. 

GemaS dem Ausf uhrungsbei spiel der Erfindung weist die 
Merkmalsextraktionseinheit 108 eine Filterbank mit einer 
Mehrzahl von Bandpassen auf, welche die Energie des 
eingegebenen Sprachsignals 103 in einzelnen Frequenzbandern 
messen. Mittels der Filterbank werden so genannte 
Kurzzeitspektren gebildet, indem die Ausgangssignale der 
Bandpasse gleichgerichtet , geglattet und in kurzen Abstanden 
abgetastet werden, gemaS dem Ausf uhrungsbei spiel alle 
10 msec, alternativ alle 15 msec. 

Die mittels der Merkmalsextraktionseinheit 108 gebildeten 
Cepstrum-Koef f izienten, die 13 Koef f izienten der 
Merkmalsvektoren 109 bilden, werden als Merkmalsvektor- 
Komponenten von zwei aufeinander folgenden Zeitfenstern der 
GroSe von 10 msec oder von 15 msec in dem Merkmalsvektor 109 
gespeichert. Ferner sind als Merkmalsvektor-Komponenten in 
dem Merkmalsvektor 109 jeweils die zeitliche erste Ableitung 
sowie die zeitliche zweite Ableitung der Cepstrum- 
Koeff izienten in dem Merkmalsvektor 109 als Super- 
Merkmalsvektor zusammengef asst und werden dem Rechner 110 
zugef uhrt . 

In dem Rechner 110 ist in Form eines Computerprogramms eine 
Spracherkennungseinheit realisiert und in einem ersten 
Speicherteilbereich 2 01 (vgl. Fig. 2) in dem Speicher 113 
gespeichert, welche Spracherkennungseinheit auf dem Prinzip 
der Hidden Markov Modelle basiert. Somit erfolgt mittels des 
Computerprogramms eine sprecherunabhangige Spracherkennung . 

Zu Beginn des Verfahrens werden zwei unterschiedliche 
Datensatze mit von einem oder mehreren Benutzern 
eingesprochenen Sprachaufeerungen gebildet. 
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Ein Trainingsdatensatz, gespeichert in einem zweiten 
Speicherteilbereich 202 des Speichers 113 weist diejenigen 
Sprachaufeerungen, in Form von fur die jeweiligen 
Sprachaufeerungen gebildeten Merkmalsvektoren, auf , die zum im 
Folgenden naher erlauterten Trainieren der Hidden Markov 
Modelle, welche zur Spracherkennung eingesetzt werden, 
verwendet werden. 

In einem dritten Speicherteilbereich 203 ist ein 
Testdatensatz gespeichert, das hei£t die SprachauSerungen, 
die verwendet werden zum Testen der trainierten 
Spracherkennungseinheit , anders ausgedriickt zum Testen der 
trainierten Hidden Markov Modelle, die in einem vierten 
Speicherteilbereich 204 gespeichert sind. 

Mittels des Testdatensatzes wird, wie im Folgenden naher 
erlautert wird, eine Erkennungsraten- Information ermittelt, 
welche in einem funften Speicherteilbereich 205 gespeichert 
sind. 

In einem sechsten Speicherteilbereich 206 ist ferner eine im 
Weiteren naher erlauterte Tabelle gespeichert, in der fur 
eine oder mehrere Anwendungen des Spracherkennungs systems 
eine Angabe daruber gespeichert ist, welche Erkennungsrate 
fur die jeweilige Anwendung benotigt wird. 

Es ist in diesem Zusammenhang darauf hinzuweisen, dass die 
einzelnen Elemente in unterschiedlichen Speicherbereichen 
desselben Speichers 113 gespeichert sein konnen, jedoch auch 
in unterschiedlichen, vorzugsweise an die jeweiligen 
Anf orderungen der gespeicherten Elemente angepassten 
Speichern. 

Fig. 3 und Fig. 4 zeigen in einem Blockdiagramm 300 
(vgl. Fig. 3) bzw. in einem Ablauf diagramm (vgl. Fig. 4) die 
einzelnen von dem Rechner 110 durchgef iihrten 
Verf ahrensschritte des Verfahrens zum Ermitteln der in dem 
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funften Speicherteilbereich 205 gespeicherten 
Erkennungsraten-Inf ormation . 

Nach Starten des Verfahrens (Schritt 401) werden in einem 
Trainingsschritt die einzelnen Hidden Markov Modelle unter 
Verwendung des in dem zweiten Teilspeicherbereich 202 
gespeicherten Trainingsdatensatzes trainiert . 

Das Training der Hidden Markov Modelle erfolgt gemaS diesem 
Ausf uhrungsbei spiel in drei Phasen: 

• einer erste Phase (Schritt 402), in der die in der 
Trainings-Datenbank enthaltenen Sprachsignale 301 
segmentiert werden mittels einer Segmentierungseinheit 
302, 

• einer zweiten Phase (Schritt 403) , in der die LDA-Matrix 
(lineare Diskriminanzanalyse-Matrix) berechnet wird 
sowie 

• einer dritten Phase (Schritt 405) , in der das Codebuch, 
das heifet die HMM-Prototypen-Merkmalsvektoren fur 
jeweils eine in einem Auswahlschritt (Schritt 404) 
ausgewahlte Anzahl von Merkmalsvektor-Komponenten 
berechnet werden. 

Die Gesamtheit dieser drei Phasen wird im Weiteren als das 
Training der Hidden Markov Modelle bezeichnet (HMM-Training) . 

Das HMM-Training wird unter Verwendung des DSPs 12 3 sowie 
unter Verwendung von vorgegebenen Trainingskripts , 
anschaulich von geeignet eingerichteten Computerprogrammen, 
durchgef \ihrt . 

GemaS diesem Ausf iihrungsbeispiel wird jede gebildete 
lautsprachliche Einheit, das hei£t jedes Phonem, in drei 
aufeinander folgende Phonemsegmente aufgeteilt, entsprechend 
einer Initial-Phase (erstes Phonemsegment ) , einer zentralen 
Phase (zweites Phonemsegment) und einer Endphase (drittes 
Phonemsegment) eines Lauts, das heiSt eines Phonems. 
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Anders ausgedruckt wird jeder Laut in einem Lautmodell mit 
drei Zustanden, das heiSt mit einem Drei-Zustands-HMM 
modelliert . 

Wahrend der Spracherkennung werden die drei Phonemsegmente in 
einer Bakis-Topologie oder allgemein einer Links-Rechts- 
Topologie aneinander gereiht und auf die Konkatenation dieser 
drei aneinander gereihten Segmente wird die Berechnung im 
Rahmen der sprecherunabhangigen Spracherkennung durchgef iihrt . 

Wie im Weiteren noch naher erlautert wird, wird in dem 
Spracherkennungsmodus ein Viterbi-Algorithmus zum Dekodieren 
der Merkmalsvektoren, welche aus dem eingegebenen 
Sprachsignal 101 gebildet werden, durchgef iihrt . 

Nach erfolgter Segment ierung wird die LDA-Matrix 304 
(Schritt 403) mittels einer LDA-Matrix-Berechnungseinheit 303 
ermittelt . 

Die LDA-Matrix 304 dient zur Transformation eines jeweiligen 
Super-Merkmalsvektors y auf einen Merkmalsvektor x gemaS 

folgender Vorschrift: 




(1) 



wobei mit 



x ein Merkmalsvektor, 

A eine LDA-Matrix, 

y ein Super-Merkmalsvektor , 

y ein globaler Verschiebungsvektor 



bezeichnet wird. 



Die LDA-Matrix A wird derart bestimmt, dass 
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• die Komponenten des Merkmalsvektors x im statistischen 
Durchschnitt voneinander im Wesentlichen unkorreliert 
sind, 

• die statistischen Varianzen innerhalb einer 
Segmentklasse im statistischen Durchschnitt normalisiert 
sind, 

• die Zentren der Segmentklassen im statistischen 
Durchschnitt einen maximalen Abstand voneinander 
aufweisen und 

• die Dimension der Merkmalsvektoren x moglichst, 
vorzugsweise Spracherkennungsanwendungs-abhangig, 
reduziert wird. 



Im Folgenden wird das Verfahren zum Bestimmen der LDA-Matrix 
A gemaE diesen Ausf ilhrungsbeispielen erlautert . 

Es ist jedoch anzumerken, dass alternativ alle bekannten 
Verfahren zum Bestimmen einer LDA-Matrix A ohne Einschrankung 
eingesetzt werden kann. 

Es wird angenommen, dass J Segmentklassen existieren, wobei 
jede Segmentklasse j einen Satz D y -dimensionaler Super- 
Merkmalsvektoren y en thai t, das heifet, dass gilt: 



Klasse j = 



12 N i 



(2) 



wobei mit Nj die Anzahl der in der Klasse j sich bef indenden 
Super-Merkmalsvektoren yj bezeichnet wird. 



Mit 



J 

N = £Nj (3) 
j=l 



wi 



rd die Gesamtzahl der Super-Merkmalsvektoren y bezeichnet. 
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Es ist anzumerken, dass die Super-Merkmalsvektoren unter 

Verwendung der oben beschriebenen Segmentierung der 
Sprachsignal-Datenbank ermittelt worden sind. 

5 

GemaS diesem Ausf iihrungsbei spiel weist jeder Super- 
Merkmalsvektor y^F eine Dimension D y von 

D y = 78 (= 2 ■ 3 ■ 13) 

10 

auf, wobei 13 MFCC-Koef f izienten (Cepstrums-Koeff izienten) in 
dem Super-Merkmalsvektor enthalten sind, sowie deren 

jeweilige zeitliche erste Ableitung und deren jeweilige 
zeitliche zweite Ableitung (dies begrundet obigen Faktor 3) . 

15 

Ferner sind in jedem Super-Merkmalsvektor y^ jeweils die 

Komponenten zweier zeitlich unmittelbar auf einanderf olgender 
Zeitfenster im Rahmen der Kurzzeitanalyse enthalten (dies 
begrundet obigen Faktor 2) . 

20 

Es ist in diesem Zusammenhang anzumerken, dass grundsatzlich 
eine beliebige, an die jeweilige Anwendung angepasste Zahl 
von Vektorkomponenten in dem Super-Merkmalsvektor y^ 

enthalten sein kann, beispielsweise bis zu 20 Cepstrums- 
25 Koeff izienten und deren zugehorigen zeitlichen erste 
Ableitungen und zweite Ableitungen. 

Der statistische Mittelwert oder anders ausgedriickt das 
Zentrum der Klasse j ergibt sich gemafi f olgender Vorschrift: 



30 
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Die Kovarianzmatrix Sj der Klasse j ergibt sich gemaS 
folgender Vorschrift: 



N 3 



2j = ^- >',|yi -y, |-|y^ - y, ! - (5) 



Die Durchschnitts-Intra-Streumatrix S w ist definiert als: 

S w = ip(j)-§j, (6) 
3 = 1 



mit 



N -i 

P6)=V' (7) 

N 

wobei p(j) als Gewichtungsf aktor der Klasse j bezeichnet 
wird. 



In analoger Weise ist die Durchschnitts-Inter-Streumatrix Sb 
definiert als: 

mit 

J 

y = SpO)-yj t9> 
j=i 

als dem Durchschnitts-Super-Merkmalsvektor uber alle Klassen. 
Die LDA-Matrix A wird zerlegt geiuaS folgender Vorschrift: 
A = U • W • V , (10) 
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wobei mit 



• 



U eine erste Transf ormationsmatrix, 

W eine zweite Transf ormationsmatrix und 

V eine dritte Transf ormationsmatrix 



bezeichnet wird. 

Die erste Transf ormationsmatrix U wird verwendet, urn die 
Durchschnitts-Intra-Streumatrix S w zu diagonalisieren und 
wird ermittelt, indem die positiv definite und symmetrische 
Durchschnitts-Intra-Streumatrix S w in ihren Eigenvektorraum 
transf ormiert wird. In ihrem Eigenvektorraum ist die 
Durchschnitts-Intra-Streumatrix S w eine Diagonal-Matrix, 
deren Komponenten positiv und groSer oder gleich null sind. 
Die Komponenten, deren Werte grower null sind, entsprechen 
der Durchschnitts-Varianz in der jeweiligen durch die 
entsprechende Vektorkomponente definierten Dimension. 

Die zweite Transf ormationsmatrix W wird zum Normalisieren der 
Durchschnitts-Varianzen verwendet und wird ermittelt gemafe 
folgender Vorschrift: 



Die Transformation U - W wird auch als WeiSung bezeichnet. 



ergibt sich fur die Matrix B • S w * B die Einheitsmatrix, 

welche bei jeder beliebigen orthonormalen 
Lineartransf ormation unverandert bleibt. 




(11) 



Mit 



B = U • W 



(12) 
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Um die Durchschnitts-Inter-Streumatrix Sb zu diagonalisieren 
wird die dritte Transf ormationsmatrix V, die gebildet wird 
gema£ folgender Vorschrift: 

V = B T • S b ■ B, (13) 

wobei B T • • B ebenfalls eine positiv definite und 

symmetrische Matrix darstellt, in ihren Eigenvektorraum 
transf ormiert wird. 

In dem Transf ormationsraum 

x = A T • ^ - y) (14) 
ergeben sich somit folgende Matrizen: 

Eine diagonalisierte Durchschnitts-Intra-Streumatrix S w : 
S w = diaga) d=1 ... Dy (15) 

und eine diagonalisierte Durchschnitts-Inter-Streumatrix Sb: 
S b = diag(a2) d=i ^ , (16) 

wobei mit diag(cd) d = 1 D ^ eine D y x D y Diagonalmatrix mit den 

Komponenten in der Zeile/Spalte d und sonst mit 
Komponenten mit dem Wert Null, bezeichnet wird. 

Die Werte sind die Eigenwerte der Durchschnitts-Inter- 

Streumatrix Sb und stellen ein MaS fur die so genannte 
Pseudoentropie der Merkmalsvektor-Komponenten dar, welche im 
Folgenden auch als Inf ormationsgehalt der Merkmalsvektor- 
Komponenten bezeichnet wird. Es ist anzumerken, dass die Spur 
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jeder Matrix invariant ist bezuglich irgendeiner 
Orthogonaltransf ormation, womit sich ergibt, dass die Summe 




(17) 



d = l 



die Gesamt-Durchschnitts-Varianz des Durchschnitts-Vektors xj 
der J Klassen darstellt. 

Es ergibt sich somit eine ermittelte Anhangigkeit der 
Pseudoentropie der Merkmalsvektoren von den jeweils in dem 
Merkmalsvektor enthaltenen bzw. berucksichtigten 
Merkmalsvektor-Komponenten . 

Gema£ diesem Ausfiihrungsbeispiel wird anschlieSend eine 

2 

Dimensionsreduktion vorgenommen, mdem die a^-Werte in m 

ihrer GroSe abfal lender Reihenfolge sortiert werden und die 
a^-Werte weggelassen werden, das heifit unberiicksichtigt 

bleiben, die kleiner sind als ein vorgegebener Schwellwert. 
Der vorgegebene Schwellwert kann ferner kumulativ definiert 
sein . 

Dann kann die LDA-Matrix A angepasst werden, indem die 

2 

Zeilen entsprechend den Eigenwerten sortiert werden und 

die Zeilen weggelassen werden, die zu den ausreichend 
„kleinen" Varianzen gehoren und damit nur einen geringen 
Inf ormationsgehalt (geringe Pseudoentropie) aufweisen. 

GemaS diesem Ausfiihrungsbeispiel werden die Komponenten mit 
den 24 groSten Eigenwerten verwendet, anders ausgedruckt 

D x = 24. 

Die vier oben beschriebenen Teilschritte zum Ermitteln der 
LDA-Matrix A 304 (Schritt 403) sind in folgender Tabelle 
zusammengef asst : 
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Nummer 
Verf ahrensschritt 


Ziel 


Verf ahren 


1 


Dekorrelieren der 

Merkmalsvektorkompo- 

nenten 


Diagonal i si eren 
der Durchschnitts- 
Intra-Klassen- 
Kovarianzmatrix S w 


2 


Normalisieren der 
statistischen 
Varianzen innerhalb 
einer Klasse 


Bestimmen der 
inversen 

Quadratwurzel der 

trans formier ten 

Durchschnitts- 

Intra-Klassen- 

Kovarianzmatrix 
T 

y -s w -y 


3 


Maximieren der 
Klassenzentren 


Diagonal isier en 
der 

transf ormierten 

Durchschnitts- 

Inter-Klassen- 

Kovarianzmatrix 
T 

B -S b -B 


4 


Reduzieren der 
Dimensionen der 
Merkmalsvektoren 


Auswahlen der 
Zeilen der Matrix 
A mit den 24 
grofeten 

Eigenwerten von 
T 

A -Sb*A 



Das letzte Verfahren zum Teil-Verf ahren irn Rahmen des 
Trainings der Hidden Markov Modelle ist das Clustern der 
Merkmalsvektoren (Schritt 405), welches mittels einer 
Clustereinheit 305 durchgefuhrt wird und welches als Ergebnis 
ein jeweiliges Codebuch 306 hat, jeweils spezifisch fur einen 
Trainingsdatensatz mit einer vorgegebenen Anzahl von 
Merkmalsvektor-Komponenten . 
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Die Gesamtheit der Reprasentanten der Segmentklassen wird als 
Codebuch bezeichnet und die Reprasentanten selbst werden auch 
als Prototypen der Phonemsegmentklasse bezeichnet. 

5 

Die Prototypen, im Weiteren auch als Prototype 
Merkmalsvektoren bezeichnet, werden gemaS dem in [1] 
beschriebenen Baum-Welch-Training ermittelt. 

10 Somit sind die Basiseintrage des elektronischen Worterbuches , 
das heiSt die Basiseintrage zur sprecherunabhangigen 
Spracherkennung erstellt und gespeichert und die 
entsprechenden Hidden Markov Modelle trainiert . 

15 Somit existiert fur jeden Basiseintrag jeweils ein Hidden 
Markov Model 1, womit das Codebuch 3 06 fur den 
Trainingsdatensatz mit der ausgewahlten Anzahl von 
Merkiualsvektor-Komponenten in den Merkmalsvektoren in dem 
Trainingsdatensatz . 

20 

Nach erfolgtem Training der Hidden Markov Modelle liegen 
nunmehr die trainierten Hidden Markov Modelle in dem vierten 
Speicherteilbereich 204 vor. 

25 In einem anschlieSenden Verf ahrensschritt (Schritt 406) wird 
fur die in dem Testdatensatz , welcher in dem dritten 
Teilspeicherbereich 2 03 gespeichert ist, die Erkennungsrate 
fur die jeweiligen Merkmalsvektoren der aktuellen Dimension, 
das heiSt fur die Merkmalsvektoren mit der jeweils aktuellen 

30 Anzahl von Merkmalsvektor-Komponenten, ermittelt. 

Dies erfolgt gemaS diesem Ausf uhrungsbei spiel dadurch, dass 
fur alle Sprachaufeerungen, das heiSt fur alle Folgen von 
Merkmalsvektoren in dem Testdatensatz eine Spracherkennung 
3 5 mittels der trainierten Hidden Markov Modelle, anders 
ausgedruckt mittels einer Spracherkennungseinheit 307, 
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durchgefuhrt wird und die Spracherkennungsergebnisse mit den 
Soll-Ergebnissen des Testdatensatzes verglichen werden. 

Die ermittelte Erkennungsrate 3 08 ergibt sich aus dem 
Verhaltnis der Anzahl korrekter Erkennungsergebnisse, anders 
ausgedruckt aus der Anzahl von Ubereinstimmungen zwischen dem 
Spracherkennungsergebnis und dem Soll-Ergebnis , welches in 
dem Testdatensatz angegeben ist, und der insgesamt zur 
Spracherkennung dargestellten Testdatensatze . 

In einem nachf olgenden Schritt (Schritt 304) wird die 
ermittelte Erkennungsrate gemeinsam mit der Angabe, wie viele 
Merkmalsvektor-Komponenten zur Bestimmung der Erkennungsrate 
308 fur die Merkmalsvektoren des Testdatensatzes 203 
verwendet worden sind, gespeichert. 

AnschlieSend wird in einem Priif schritt 407 uberpruft, oh das 
Verfahren beendet werden soli. 

Ist dies der Fall, so wird das Verfahren beendet. 
(Schritt 408) . 

Soil das Verfahren noch nicht beendet werden, so wird die 
Anzahl der Merkmalsvektor-Komponenten der Merkmalsvektoren 
109, die im Rahmen der Ermittlung der Erkennungsrate aus dem 
Testdatensatz verwendet werden, um einen vorgegebenen Wert, 
vorzugsweise um den Wert „1", das heifit um eine 
Merkmalsvektor-Komponente reduziert (Schritt 409) . 

AnschlieEend werden die Schritte des Clusterns (Schritt 405) 
und somit des Erstellens des jeweiligen Codebuchs 306 und des 
Bestimmens der Spracherkennungsrate (Schritt 406) erneut 
durchgefuhrt, nunmehr jedoch fur Merkmalsvektoren des 
Testdatensatzes mit jeweils um eine Merkmalsvektor-Komponente 
reduziertem Merkmalsvektoren. 
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Anders ausgedriickt bedeutet dies, dass bei 78 Merkmalsvektor- 
Komponenten in einem iiblichen Merkmalsvektor gemafi diesem 
Ausfiihrungsbeispiel der Erfindung in der zweiten Iteration 
die Erkennungsrate fur einen Merkmalsvektor mit 77 
5 Merkmalsvektor-Komponenten durchgefiihrt wird, in der dritten 
Iteration mit 76 Merkmalsvektor-Komponenten, usw. 

GemaS einer alternativen Ausgestaltung der Erfindung ist es 
vorgesehen, unmittelbar nicht mit alien Merkmalsvektor- 
10 Komponenten des Super-Merkmalsvektors (d.h. nicht mit alien 

7 8 Merkmalsvektor-Komponenten) , zu beginnen, sondern schon zu 
l^ft Beginn eine urn einen anwendungsabhangigen Wert reduzierte 
- 1 Anzahl von Merkmalsvektor-Komponenten. 

15 Ferner kann in jeder Iteration die Anzahl von Merkmalsvektor- 
Komponenten um mehr als urn den Wert ,1* reduziert werden. 

Somit liegen als Ergebnis diese oben beschriebenen Verfahrens 
einerseits eine Pseudoentropie-Abbildung und andererseits 

2 0 eine Erkennungsraten-Abbildung vor . 

Mit der Pseudoentropie-Abbildung wird eine Abhangigkeit der 
Pseudoentropie der Merkmalsvektoren von den beriicksichtigten 
Merkmalsvektor-Komponenten angegeben, also eine Abhangigkeit 
j^j25 des Inf ormationsgehalts , auch als Inf ormationsmaE bezeichnet, 
von den beriicksichtigten Merkmalsvektor-Komponenten. 

Mit der Erkennungsraten-Abbildung wird eine Abhangigkeit der 
Spracherkennungsrate der Merkmalsvektoren von den 

3 0 beriicksichtigten Merkmalsvektor-Komponenten angegeben. 

Aus der Pseudoentropie-Abbildung und der Erkennungsraten- 
Abbildung wird die Erkennungsraten-Inf ormation gebildet, 
indem eine Abhangigkeit der Spracherkennungsrate von der 
35 Pseudoentropie ermittelt wird unter Verwendung der jeweiligen 
beriicksichtigten Merkmalsvektor-Komponenten. Es ist 
anzumerken, dass die Erkennungsraten-Inf ormation nunmehr 
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unabhangig ist von der Anzahl der berucksichtigten 
Merkmalsvektor-Komponenten . 

Die Erkennungsraten- Information wird in dem funften 
Teilspeicherbereich 205 gespeichert. 

Ergebnis dieses Verfahrens ist somit die in Fig. 5 in einem 
Funktionsdiagramm dargestellte Erkennungsraten- Information 
500, die uber einer ersten Achse, auf der die ermittelte 
Pseudoentropie 501 aufgetragen ist, die erreichte 
Erkennungsrate 502 in Form von Daten-Tupeln 503 angibt . 

Die Erkennungsraten- Inf ormation 5 00 stellt somit den 
Zusammenhang dar zwischen der Pseudoentropie und der mittels 
des Spracherkennungs systems erzielbaren Erkennungsrate. 

Es ist in diesem Zusammenhang darauf hinzuweisen, dass die 
Erkennungsraten- Inf ormation 500 nur einmal fur jedes 
Spracherkennungssystem, das hei£t fur jeden trainierten Satz 
von Hidden Markov Modellen durchgef tihrt werden muss. 

Fig. 6 zeigt in einem Ablauf diagramm 600 die einzelnen 

Verf ahrensschritte des Verfahrens zur Spracherkennung gemaS 

dem Ausf iihrungsbei spiel der Erfindung. 

Nach Starten des Verfahrens (Schritt 601) wird die 
Spracherkennungsanwendung ausgewahlt oder bestimmt, in deren 
Rahmen die Spracherkennung durchgefiihrt werden soli 
(Schritt 602) . 

Als mogliche Anwendungen fur die Spracherkennung sind gemaS 
diesem Ausf iihrungsbeispiel folgende 
Spracherkennungsapplikationen vorgesehen: 
• ein Sprachdialogsystem: 

fur ein Sprachdialogsystem mit einer 

Spracherkennungsrate von 92 - 93 % zu gewahrleisten; 
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• ein Fahrzeug-Navigationssystem: 

fur diese Spracherkennungsapplikation ist eine 
Spracherkennungsrate von ungefahr 95 % zu gewahrleisten; 

• eine Steuerung eines technischen Systems, gemaS dem 
Ausf iihrungsbeispiel eines Videorekorders : 

fur diese Spracherkennungsapplikation ist eine 
Spracherkennung von ungefahr 95 % zu gewahrleisten; 

• eine Telef on-Anwendung : 

fur diese Anwendung ist eine Spracherkennungsrate von 
95 % zu gewahrleisten; 

• ein Diktat, anders ausgedrlickt das Erkennen von 
Sprachinf ormation und Umsetzen des erkannten 
Sprachsignals in ein Tex tverarbeitungs system: 
fur diese Applikation ist die mit dem 
Spracherkennungssystem maximal erreichbare 
Spracherkennungsrate erf order lich, das heiiSt in diesem 
Fall ist keine Reduktion von Merkmalsvektor-Komponenten 
sinnvoll . 

Fur die jeweilige Spracherkennungs anwendung erfolgt unter 
einem ebenfalls in dem zweiten Speicherteilbereich 2 02 
gespei chert en, vorzugsweise Spracherkennungsanwendungs- 
abhangigen Trainingsdatensatz eine Segmentierung der Super- 
Merkmalsvektoren (Schritt 603) in der gleichen, oben 
be s chr i ebenen We i s e . 

AnschlieEend wird, ebenfalls in der gleichen, oben 
beschriebenen Weise eine LDA-Berechnung durchgefuhrt 
(Schritt 604) , womit eine Spracherkennungsanwendungs- 
abhangige LDA-Matrix 605 ermittelt wird. 

Unter Verwendung der Spracherkennungsanwendungs-abhangigen 
LDA-Matrix 605 wird eine Spracherkennungsanwendungs -abhangige 
Pseudoentropie-Abbildung ermittelt, die einen Zusammenhang 
darstellt zwischen der erreichbaren Pseudoentropie und der 
jeweils berucksichtigten Anzahl von Merkmalsvektor- 
Komponenten in den Merkmalsvektoren . 
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Die j ewei 1 i ge Spr a cherkennungsanwendungs - abhangi ge 
Pseudoentropie-Abbildung wird in dem sechsten 
Speicherteilbereich 206 gespeichert. 

Unter Verwendung der zuvor ermittelten benotigten 
Spracherkennungsrate und der in dem sechsten 
Speicherteilbereich 206 gespeicherten Erkennungsraten- 
Information wird fur die ausgewahlte Anwendung in einem 
zusatzlichen Schritt die erf orderliche Pseudoentropie 
ermittelt (Schritt 606) . 

Unter Verwendung der Spracherkennungsanwendungs-abhangigen 
Pseudoentropie-Abbildung, wie sie zuvor ermittelt worden ist, 
wird in einem anschlieSenden Schritt (Schritt 607) ermittelt, 
wie viele Merkmalsvektor-Komponenten und welche 
Merkmalsvektor-Komponenten, gemafi diesem Ausf uhrungsbei spiel 
die jeweils die Merkmalsvektor-Komponenten mit jeweils 
kleinstem Inf ormationsgehalt , im Rahmen der Spracherkennung 
weggelassen werden konnen, anders ausgedruckt 
unberucksichtigt bleiben konnen. 

Ist in dem Schritt 607 nunmehr die Anzahl benotigter 
Merkmalsvektor-Komponenten fur die ausgewahlte Anwendung 
ermittelt, so wird in einem nachf olgenden Schritt fur die 
jeweilige Anwendung und fur die bestimmte Anzahl von 
Merkmalsvektor-Komponenten ein Clustering durchgefuhrt 
(Schritt 608) . Ergebnis des Clusterings ist ein 
Spracherkennungsanwendungs-abhangiges Codebuch 609 , anders 
ausgedruckt eine Menge Spracherkennungsanwendungs-abhangiger 
trainierter Hidden Markov Modelle, welches ebenfalls in dem 
Speicher gespeichert wird. Das Clusterverf ahren ist gleich 
dem oben beschriebenen Clusterverf ahren (Schritt 4 05) zum 
Bestimmen der Erkennungsraten- Information 500. 

AnschlieSend erfolgt die sprecherunabhangige Spracherkennung 
unter Verwendung des gespeicherten 
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Spracherkennungsanwendungs-abhangigen Codebuchs 609 
(Schritt 610) . 

Anders ausgedriickt bedeutet dies, dass eine anschlieSend 
eingesprochene AuSerung eines Benutzers unter Verwendung der 
Hidden Markov Modelle gemaiS dem [1] beschriebenen Verfahren 
zur sprecherunabhangigen Spracherkennung unter Verwendung des 
Viterbi-Algorithmus durchgefuhrt wird (Schritt 610) . 

Wie zuvor beschrieben werden im Rahmen der Spracherkennung 
die reduzierten Merkmalsvektoren berucksichtigt, das heiSt 
die Merkmalsvektoren ohne die nicht beriicksichtigten 
Merkmalsvektor-Komponenten . 

Anders ausgedriickt bedeutet dies, dass bei k Merkmalsvektor- 
Komponenten in einem Merkmalsvektor und bei n nicht 
berucksichtigten Merkmalsvektor-Komponenten (n < k) lediglich 
(k - n) Merkmalsvektor-Komponenten im Rahmen der 
Spracherkennung berucksichtigt werden mussen. 

Somit findet auch der Vergleich in einem Vergleichsraum der 
Dimension (k - n) statt . 

Ferner wird erf indungsgemaS die Erkennungsraten- Information 
nur einmal bestimmt; fur jede neue Spracherkennungsanwendung 
ist es lediglich erf orderlich, unter Verwendung der 
Erkennungsraten- Information 500 zu ermitteln, wie viele und 
vorzugsweise welche Merkmalsvektor-Komponenten fur die neue 
Spracherkennungsanwendung erforderlich sind, und das Codebuch 
fur die ermittelte Anzahl benotigter Merkmalsvektor- 
Komponenten zu bestimmen. 

Fig. 5 zeigt das Beispiel, dass fur die ausgewahlte Anwendung 
eine Spracherkennungsrate von 95 % benotigt wird, in Fig. 5 
dargestellt mittels einer Schnittlinie 504. 
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Oberhalb der Schnittlinie befindende Datenpunkte 
reprasentieren eine Pseudoentropie, die groSer ist als es 
eigentlich erforderlich ware fur die Anforderung der 
ausgewahlten Anwendung, anders ausgedruckt, um eine 
Erkennungsrate von 95 % zu gewahrleisten . 

GemaS diesem Ausfuhrungsbei spiel konnen zwei Merkmalsvektor- 
Komponenten weggelassen werden, womit die Dimension der 
verarbeiteten Merkmalsvektoren um den Wert 2 reduziert werden 
konnte. 

Anschaulich kann die Erfindung darin gesehen werden, dass fur 
eine spezielle ausgewahlte Spracherkennungs anwendung, 
beispielsweise aus dem Bereich Command and Control, anders 
ausgedruckt fur eine Steuereinrichtung, unter bestimmten 
Bedingungen eine geringere Erkennrate des Spracherkenners 
akzeptiert werden kann und diese Erkenntnis erf indungsgemaS 
umgesetzt wird in ein Reduzieren der Dimension der 
verarbeiteten Merkmalsvektoren. 

Nach erfolgter Spracherkennung in Schritt 610 wird das 
Verfahren beendet (Schritt 611) . 
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In diesem Dokument ist folgende Verof f entlichung zitiert: 

[1] E.G. Schukat-Talamazzini , Automatischer Spracherkennung, 
Grundlagen, statistische Modelle und effiziente 
Algorithmen, Vieweg Verlag, ISBN 3-528-05492-1, 
Seite 121 - 164, 1995 
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Patentansproiche 

1. Verfahren zur rechnergestiitzten Spracherkennung unter 
Verwendung von Merkmalsvektoren, wobei eine Erkennungsraten- 
Information gespeichert ist, mit der fur die Merkmalsvektoren 
abhangig von dem Inf ormationsgehalt der Merkmalsvektor- 
Komponenten angegeben wird, welche Spracherkennungsrate 
jeweils mit den Merkmalsvektoren mit den jeweils 
beriicksichtigten Merkmalsvektor-Komponenten erzielbar ist, 

• bei dem bestimmt wird, welche Spracherkennungsrate fur 
eine Spracherkennungsanwendung benotigt wird, 

• bei dem unter Verwendung der Erkennungsraten- Information 
ermittelt wird, welcher Inf ormationsgehalt der 
Merkmalsvektor-Komponenten mindestens erforderlich ist, 
um die bestimmte Spracherkennungsrate zu gewahrleisten, 

• bei dem ermittelt wird, wie viele Merkmalsvektor- 
Komponenten in dem Spracherkennungs system fur die 
Spracherkennungsanwendung erforderlich sind, um den 
ermittelten Inf ormationsgehalt bereitzustellen, 

• bei dem die Spracherkennung ausgefuhrt wird unter 
Verwendung von Merkmalsvektoren mit der Anzahl von 
Merkmalsvektor-Komponenten, die erforderlich sind, um 
den ermittelten Inf ormationsgehalt bereitzustellen. 

2. Verfahren gemaS Anspruch 1, 

bei dem fur die Spracherkennung ein sprecherunabhangiges 
Spracherkennungsverf ahren verwendet wird. 

3. Verfahren gemaS Anspruch 2, 

bei dem die Spracherkennung unter Verwendung von Hidden 
Markov Model len durchgefuhrt wird. 

4. Verfahren gema£ einem der Anspriiche 1 bis 3, 

bei dem die Merkmalsvektor-Komponenten mit hochstem 
Inf ormationsgehalt ausgewahlt werden und im Rahmen der 
Spracherkennung verwendet werden. 
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5. Spracherkennungssystem mit 

• einer Spracherkennungseinheit , 

• einem mit der Spracherkennungseinheit gekoppelten 
elektronischen Worterbuch, in dem die im Rahmen der 
Spracherkennung beriicksichtigten Worter gespeichert 
sind, 

• einem Erkennungsraten-Inf ormations-Speicher, in dem 
Erkennungsraten-Inf ormation gespeichert ist, mit der fur 
die Merkmalsvektoren abhangig von dem Inf ormationsgehalt 
der Merkmalsvektor-Komponenten angegeben wird, welche 
Spracherkennungsrate jeweils mit den Merkmalsvektoren 
mit den jeweils beriicksichtigten Merkmalsvektor- 
Komponenten erzielbar ist, 

• einer Erkennungsraten-Inf ormations-Ermittlungseinheit 
zum Ermitteln der Erkennungsraten-Inf ormation, 

• einer Inf ormationsgehalt-Ermittlungseinheit , zum 
Ermitteln des Inf ormationsgehalts fur Merkmalsvektor- 
Komponenten eines Merkmalsvektors in dem 
Spracherkennungs sys t em , 

• einer Merkmalsvektor-Komponenten- Auswahleinheit zum 
Auswahlen von Merkmalsvektor-Komponenten, die im Rahmen 
der Spracherkennung zu berucksichtigen sind. 

6. Spracherkennungssystem gemaS Anspruch 5, 

bei dem die Spracherkennungseinheit eingerichtet ist zur 
sprecherunabhangigen Spracherkennung . 

7. Spracherkennungssystem gemaE Anspruche 5 oder 6, 
eingerichtet als ein Embedded System. 

8. Steuereinrichtung zum Steuern eines technischen Systems 
mit einem Spracherkennungssystem gemaS einem der Anspruche 5 
bis 7, 

wobei in dem elektronischen Worterbuch die zum Steuern des 
technischen Systems vorgesehenen Steuerbef ehle gespeichert 
sind. 



2002P06499 



32 

9. Telekommunikationsgerat mit einer Steuereinrichtung geruafc 
Anspruch 8 . 
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Zusammenf assung 

Verfahren zur rechnergestutzten Spracherkennung , 
Spracherkennungs system und Steuereinrichtung zum Steuern 
5 eines technischen Systems 

Es wird fur eine ausgewahlte Spracherkennungsanwendung 
bestimmt, welche Spracherkennungsrate erforderlich ist. Unter 
Verwendung einer gespeicherten Spracherkennungsraten- 

10 Information wird ermittelt, welcher Inf ormationsgehalt der 
Merkmalsvektor-Komponenten mindestens erforderlich ist; urn 
die Spracherkennungsrate zu gewahrleisten . Es wird die Anzahl 
der erf orderlichen Merkmalsvektor-Komponenten ermittelt, die 
erforderlich ist, urn den ermittelten Inf ormationsgehalt 

15 bereitzustellen, und die Spracherkennung wird ausgefiihrt 
unter Verwendung von Merkmalsvektoren mit der ermittelten 
benotigten Anzahl von Merkmalsvektor-Komponenten. 

Signifikante Figur 4 
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Bezugszeichenliste 

100 Spracherkennungs system 

101 Analoges Sprachsignal 

102 Mikrofon 

103 Analoges auf genommenes Sprachsignal 

104 Vorverarbeitung 

105 Vorverarbeitetes Sprachsignal 

106 Analog- /Digitalwandler 

107 Digitales Signal 

108 Merkmalsextraktionseinheit 

109 Merkmalsvektor 

110 Rechner 

111 Eingangsschnittstelle 

112 Mikroprozessor 

113 Speicher 

114 Ausgangsschnittstelle 

115 Computerbus 

116 Tastatur 

117 Computermaus 

118 Elektrische Leitung 

119 Elektrische Leitung 
12 0 Funkverbindung 

121 Funkverbindung 

122 Lautsprecher 

123 Aktor 

201 Erster Speicherteilbereich 

202 Zweiter Speicherteilbereich 

203 Dritter Speicherteilbereich 

204 Vierter Speicherteilbereich 

205 Funfter Speicherteilbereich 

206 Sechster Speicherteilbereich 

300 Blockdiagramm 

301 Sprachsignal 

302 Segmentierungseinheit 
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303 LDA-Matrix-Berechnungseinheit 

304 LDA-Matrix 

305 Clustereinheit 

306 Codebuch 

307 spracherkennungseinheit 

308 Erkennungsrate 



400 Ablaufdiagramm 

401 Start 

402 Segmentieren Sprachsignal 

403 Berechnen LDA-Matrix 

404 Auswahl Anzahl Merkmalsvektor-Komponenten 

405 Clustern Merkmalsvektoren 

406 Ermitteln Erkennungsrate 

407 Prufschritt 

408 Ende 

409 Reduction Anzahl Martoalsvektor-Kcnponenten der 
Merkmalsvektoren 



500 Funktionsdiagramm 

501 Pseudoentropie 

502 Erkennungsrate 

503 Daten-Tupel 

504 Schnittlinie 



600 Ablaufdiagramm 

601 Start 

602 Auswahlen spracherkennungsanwendung 

603 Segmentierung Sprachsignal 

604 Berechnen LDA-Matrix 

605 LDA-Matrix 

fi 06 Ermitteln erf orderliche Pseudoentropie 

607 K^ttem Anzahl unn.tiger Merkmalsvektor-Komponenten 

608 Clustering . n( , oh . ph 

609 spracherkennungsanwendungs-abhangxges Codebuch 

610 sprecherunabhangige Spracherkennung 

611 Ende 
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